迪士尼利用人工智能AI協(xié)助制作動(dòng)畫

本文由喵帕斯發(fā)表于 2017-08-18 作者：來源：中國國際動(dòng)漫網(wǎng)

摘要：迪士尼利用人工智能AI協(xié)助制作動(dòng)畫。而迪士尼有意將計(jì)算機(jī)科學(xué)技術(shù)引入動(dòng)畫制作。他們與卡耐基梅隆大學(xué)合作建立的實(shí)驗(yàn)室近日發(fā)表了一篇論文 A Deep Learning Approach for Generalized Speech Animation，利用深度學(xué)習(xí)的方法，來生成看起來自然的語音動(dòng)畫。這篇論文已被SIGGRAPH 2017收錄。

眾所周知，卡耐基梅隆大學(xué)在計(jì)算機(jī)科學(xué)方面的研究名列前茅，而迪士尼有意將計(jì)算機(jī)科學(xué)技術(shù)引入動(dòng)畫制作。他們與卡耐基梅隆大學(xué)合作建立的實(shí)驗(yàn)室近日發(fā)表了一篇論文 A Deep Learning Approach for Generalized Speech Animation，利用深度學(xué)習(xí)的方法，來生成看起來自然的語音動(dòng)畫。這篇論文已被SIGGRAPH 2017收錄。

他們引入了一種簡單而有效的深度學(xué)習(xí)方法，來自動(dòng)生成看起來自然的，能夠與輸入語音同步的語音動(dòng)畫。這種方法使用滑動(dòng)窗口預(yù)測器，可以學(xué)習(xí)到從音位標(biāo)簽輸入序列到嘴型運(yùn)動(dòng)的任意非線性映射，能精準(zhǔn)捕捉自然動(dòng)作和可視化的協(xié)同發(fā)音效果。

這種方法有幾個(gè)吸引人的特性：它能實(shí)時(shí)運(yùn)行，只需要進(jìn)行非常少的參數(shù)調(diào)節(jié)，能很好的泛化到新的輸入語音序列，很容易編輯來創(chuàng)建風(fēng)格化和情緒化的語音，并且與現(xiàn)有的動(dòng)畫重定向方法兼容。

迪士尼實(shí)驗(yàn)室表示，他們工作中的一個(gè)重點(diǎn)是開發(fā)出能高效生成語音動(dòng)畫，并將其輕松地整合到現(xiàn)有作品中的方法。他們的論文中詳述了這種端到端的方法，其中包括機(jī)器學(xué)習(xí)的一些設(shè)計(jì)決策。在論文中，通過動(dòng)畫片段中不同的人物和聲音，演示了泛化的語音動(dòng)畫結(jié)果，包括唱歌和外語輸入。這種方法還可以根據(jù)用戶的語音輸入實(shí)時(shí)生成靈活的語音動(dòng)畫。

迪士尼也來研究人工智能啦，將AI用于動(dòng)畫制作

論文部分內(nèi)容編譯如下：

前言

語音動(dòng)畫是生成逼真的角色動(dòng)畫中重要且耗時(shí)的一部分。從廣義上講，語音動(dòng)畫是一種這樣的任務(wù)：改變圖形(或機(jī)器人)模型的面部特征，使嘴唇的動(dòng)作與發(fā)出的聲音同步，形成一種在說話的感覺。作為人類，我們都是面部表情的專家，糟糕的語音動(dòng)畫可能會讓人分心，不愉快，產(chǎn)生困惑。例如，當(dāng)看到的嘴型和聽到的聲音不一致時(shí)，有時(shí)會讓觀眾以為自己聽到的是另一種聲音（McGurk和MacDonald的論文，1976）。對于實(shí)際的角色動(dòng)畫來說，高保真語音動(dòng)畫至關(guān)重要。

目前在電影和視頻游戲制作中使用的傳統(tǒng)語音動(dòng)畫方法通常趨向于兩個(gè)極端。一種做法是，高預(yù)算的產(chǎn)品通常會采用表演捕獲技術(shù)或雇一個(gè)大型的專業(yè)動(dòng)畫制作團(tuán)隊(duì)，這樣花費(fèi)巨大，而且很難大規(guī)模復(fù)制。例如，目前沒有什么好的生產(chǎn)方法，可以跨多種語言，劃算且高效地生成高質(zhì)量的語音動(dòng)畫。另一種做法是，對于成本低、內(nèi)容多的產(chǎn)品，可能會使用簡單的唇形庫來快速生成質(zhì)量相對較低的語音動(dòng)畫。

最近，人們對開發(fā)出自動(dòng)生成語音動(dòng)畫的數(shù)據(jù)驅(qū)動(dòng)方法越來越感興趣，以找到將這兩個(gè)極端折中的解決辦法（De Martino等的論文，2006；Edwards等的論文，2016；Taylor等的論文，2012）。但是，以前的工作需要預(yù)先定義一組數(shù)量有限的唇形，還必須將這些唇形混合起來。簡單的混合函數(shù)限制了可以建模的視覺語音動(dòng)態(tài)的復(fù)雜度。所以我們另辟蹊徑，計(jì)劃利用現(xiàn)代機(jī)器學(xué)習(xí)方法，直接從數(shù)據(jù)中學(xué)習(xí)視覺語音的復(fù)雜動(dòng)態(tài)。

我們提出了一種自動(dòng)生成語音動(dòng)畫的深度學(xué)習(xí)方法，這種方法提供一種劃算且高效的手段，能大規(guī)模地生成高保真的語音動(dòng)畫。例如，我們用100多個(gè)自由度，在電影特效制作級別的人臉模型上生成逼真的語音動(dòng)畫。我們工作中的一個(gè)重點(diǎn)是開發(fā)一種高效的語音動(dòng)畫方法，可以無縫地整合到現(xiàn)有的作品生產(chǎn)中。

迪士尼也來研究人工智能啦，將AI用于動(dòng)畫制作

我們的方法使用連續(xù)的深度學(xué)習(xí)滑動(dòng)窗口預(yù)測器，這是受Kim等人在2015年發(fā)表的一篇論文的啟發(fā)?；瑒?dòng)窗口的方法意味著預(yù)測器能夠在持續(xù)講話的輸入語音描述和輸出視頻之間表示復(fù)雜的非線性回歸，也自然包括語境和協(xié)同發(fā)音效果。我們的研究結(jié)果展現(xiàn)了在Kim等人之前的決策樹方法上利用神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法帶來的改進(jìn)。

使用重疊的滑動(dòng)窗口更直接地將學(xué)習(xí)集中在捕捉局部范圍的語境和協(xié)同發(fā)音的效果上，比起循環(huán)神經(jīng)網(wǎng)絡(luò)和LSTM（Hochreiter和Schmidhuber的論文，1997）等傳統(tǒng)的序列學(xué)習(xí)方法，更適合預(yù)測語音動(dòng)畫。

使用機(jī)器學(xué)習(xí)的主要挑戰(zhàn)之一是：要以一種對所需的最終目標(biāo)有用的方式，恰當(dāng)?shù)囟x學(xué)習(xí)任務(wù)(例如選擇什么樣的輸入/輸出和訓(xùn)練集)。我們的目標(biāo)是讓動(dòng)畫師能輕松地將高保真的語音動(dòng)畫合并到任何rig上，對任何說話者都適用，并且易于編輯和風(fēng)格化。

我們將我們的機(jī)器學(xué)習(xí)任務(wù)定義為，從單個(gè)作為參照的說話者中，學(xué)會產(chǎn)生具有中性語音的高保真動(dòng)畫。通過聚焦作為參照的面部和中性的語音，我們可以低成本且高效地收集一個(gè)全面的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集能充分地描述出語音動(dòng)畫的復(fù)雜特性。大的訓(xùn)練數(shù)據(jù)集使得我們能夠使用現(xiàn)代機(jī)器學(xué)習(xí)方法，可靠地學(xué)習(xí)語音運(yùn)動(dòng)中細(xì)微的動(dòng)態(tài)變化。

與之前程序化的生成語音動(dòng)畫的研究相比（De Martino等的論文，2006；Edwards 等的論文，2016；Taylo等的論文，2012），我們的方法能直接從數(shù)據(jù)中學(xué)會自然的協(xié)同發(fā)音效果。

我們將輸入定義為文本(音位標(biāo)簽)，意味著可以學(xué)習(xí)與說話者無關(guān)的從語境到語音動(dòng)畫的映射。

我們只需要現(xiàn)成的語音識別軟件自動(dòng)將任何說話者的語音轉(zhuǎn)換成相應(yīng)的音位描述。因此，我們的自動(dòng)語音動(dòng)畫可以泛化到任何說話者，任何形式的語音，甚至是其他語言。

局限性和未來的研究

主要的實(shí)際局限是，我們的動(dòng)畫預(yù)測是依據(jù)AAM參數(shù)化法生成的參考面部來制作的。這使我們這種方法能泛化到任何內(nèi)容，但是對特征進(jìn)行重定位會引入潛在的錯(cuò)誤源。當(dāng)提出重定向模型的初始特征設(shè)置時(shí)，必須小心謹(jǐn)慎，以保持預(yù)測動(dòng)畫的逼真度。幸運(yùn)的是，對每個(gè)角色，這個(gè)預(yù)計(jì)算步驟只需執(zhí)行一次。展望未來，一個(gè)有意思的研究方向是使用真實(shí)的動(dòng)畫數(shù)據(jù)來開發(fā)針對自動(dòng)語音動(dòng)畫的數(shù)據(jù)驅(qū)動(dòng)重定位技術(shù)。

只從中性的語音中學(xué)習(xí)，我們可以得到一個(gè)具有魯棒性的語音動(dòng)畫模型，它可以泛化到任何語音內(nèi)容。目前，在動(dòng)畫中添加表情和情感還是藝術(shù)家的工作，在未來，一個(gè)有趣的方向是從許多具有情感的語境（生氣、傷心等）生成的訓(xùn)練數(shù)據(jù)中，訓(xùn)練一個(gè)更大的神經(jīng)網(wǎng)絡(luò)，使預(yù)測的面部動(dòng)作更接近于真實(shí)的情感。

一個(gè)主要的挑戰(zhàn)是如何既劃算，又高效地收集一個(gè)綜合數(shù)據(jù)庫用于訓(xùn)練。如果沒有一個(gè)夠全面的訓(xùn)練集，使用現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)會存在困難，因?yàn)樯疃葘W(xué)習(xí)等方法通常是嚴(yán)重欠約束的。可能的方向是大規(guī)模地收集雜亂的數(shù)據(jù)(例如從公共視頻存儲庫中收集)，或者開發(fā)能自適應(yīng)地選擇收集哪種視頻的主動(dòng)學(xué)習(xí)方法，以使總收集成本最小化。

進(jìn)一步的泛化性可以從具有多種面部特征(男性、女性、圓臉、方臉、肥胖、消瘦等)的多個(gè)講話者中訓(xùn)練一個(gè)語音動(dòng)畫模型，并在預(yù)測的時(shí)候選擇與動(dòng)畫角色模型最匹配的特征。這種方法可以根據(jù)人物的說話風(fēng)格，泛化到不同臉型的不同面部表情。再一次說明，如何高效地收集綜合訓(xùn)練集是一個(gè)很大的挑戰(zhàn)。

本文標(biāo)題：迪士尼利用人工智能AI協(xié)助制作動(dòng)畫
本文地址：http://procredit.cn/jishu/45155.html